Non-line-of-sight (NLOS) imaging aims to reconstruct the three-dimensional hidden scenes from the data measured in the line-of-sight, which uses photon time-of-flight information encoded in light after multiple diffuse reflections. The under-sampled scanning data can facilitate fast imaging. However, the resulting reconstruction problem becomes a serious ill-posed inverse problem, the solution of which is of high possibility to be degraded due to noises and distortions. In this paper, we propose two novel NLOS reconstruction models based on curvature regularization, i.e., the object-domain curvature regularization model and the dual (i.e., signal and object)-domain curvature regularization model. Fast numerical optimization algorithms are developed relying on the alternating direction method of multipliers (ADMM) with the backtracking stepsize rule, which are further accelerated by GPU implementation. We evaluate the proposed algorithms on both synthetic and real datasets, which achieve state-of-the-art performance, especially in the compressed sensing setting. All our codes and data are available at https://github.com/Duanlab123/CurvNLOS.
translated by 谷歌翻译
在计算机断层扫描成像的实际应用中,投影数据可以在有限角度范围内获取,并由于扫描条件的限制而被噪声损坏。嘈杂的不完全投影数据导致反问题的不良性。在这项工作中,我们从理论上验证了低分辨率重建问题的数值稳定性比高分辨率问题更好。在接下来的内容中,提出了一个新型的低分辨率图像先验的CT重建模型,以利用低分辨率图像来提高重建质量。更具体地说,我们在下采样的投影数据上建立了低分辨率重建问题,并将重建的低分辨率图像作为原始限量角CT问题的先验知识。我们通过交替的方向方法与卷积神经网络近似的所有子问题解决了约束最小化问题。数值实验表明,我们的双分辨率网络在嘈杂的有限角度重建问题上的变异方法和流行的基于学习的重建方法都优于变异方法。
translated by 谷歌翻译
最近,对抗机器学习攻击对实用音频信号分类系统构成了严重的安全威胁,包括语音识别,说话者识别和音乐版权检测。先前的研究主要集中在确保通过在原始信号上产生类似小噪声的扰动来攻击音频信号分类器的有效性。目前尚不清楚攻击者是否能够创建音频信号扰动,除了其攻击效果外,人类还可以很好地看待。这对于音乐信号尤其重要,因为它们经过精心制作,具有可让人的音频特征。在这项工作中,我们将对音乐信号的对抗性攻击作为一种新的感知攻击框架,将人类研究纳入对抗性攻击设计中。具体而言,我们进行了一项人类研究,以量化人类对音乐信号的变化的看法。我们邀请人类参与者根据对原始和扰动的音乐信号对进行评分,并通过回归分析对人类感知过程进行反向工程,以预测给定信号的人类感知的偏差。然后将感知感知的攻击作为优化问题提出,该问题找到了最佳的扰动信号,以最大程度地减少对回归人类感知模型的感知偏差的预测。我们使用感知感知的框架来设计对YouTube版权探测器的现实对抗音乐攻击。实验表明,感知意识攻击会产生对抗性音乐的感知质量明显优于先前的工作。
translated by 谷歌翻译
与传统机器学习(ML)相比,联邦学习(FL)被认为是解决移动设备的数据隐私问题的吸引力框架。使用Edge Server(ESS)作为中间人在接近度执行模型聚合可以减少传输开销,并且它能够在低延迟FL中实现很大的潜力,其中FL(HFL)的分层体系结构被吸引更多地关注。设计适当的客户选择策略可以显着提高培训性能,并且已广泛用于FL研究。然而,据我们所知,没有专注于HFL的研究。此外,HFL的客户选择面临的挑战比传统的FL更多,例如,客户端 - es对的时变连接和网络运营商的有限预算(否)。在本文中,我们调查了HFL的客户选择问题,其中no no学习成功参与客户的数量以改善培训性能(即,在每轮中选择多个客户端)以及每个ES的有限预算。基于上下文组合多武装强盗(CC-MAB)开发了一个称为上下文知识的在线客户选择(COCS)的在线策略。 COCs观察局部计算和客户端对传输的侧信息(上下文),并使客户选择决策最大化没有给出有限预算的实用程序。理论上,与强凸和非凸HFL上的Oracle策略相比,COCS遗憾地实现了载体遗憾。仿真结果还支持拟议的COCS政策对现实世界数据集的效率。
translated by 谷歌翻译
在广泛的实用应用中,需要进行远程感知的城市场景图像的语义细分,例如土地覆盖地图,城市变化检测,环境保护和经济评估。在深度学习技术的快速发展,卷积神经网络(CNN)的迅速发展。 )多年来一直在语义细分中占主导地位。 CNN采用层次特征表示,证明了局部信息提取的强大功能。但是,卷积层的本地属性限制了网络捕获全局上下文。最近,作为计算机视觉领域的热门话题,Transformer在全球信息建模中展示了其巨大的潜力,从而增强了许多与视觉相关的任务,例如图像分类,对象检测,尤其是语义细分。在本文中,我们提出了一个基于变压器的解码器,并为实时城市场景细分构建了一个类似Unet的变压器(UneTformer)。为了有效的分割,不显示器将轻量级RESNET18选择作为编码器,并开发出有效的全球关注机制,以模拟解码器中的全局和局部信息。广泛的实验表明,我们的方法不仅运行速度更快,而且与最先进的轻量级模型相比,其准确性更高。具体而言,拟议的未显示器分别在无人机和洛夫加数据集上分别达到了67.8%和52.4%的MIOU,而在单个NVIDIA GTX 3090 GPU上输入了512x512输入的推理速度最多可以达到322.4 fps。在进一步的探索中,拟议的基于变压器的解码器与SWIN变压器编码器结合使用,还可以在Vaihingen数据集上实现最新的结果(91.3%F1和84.1%MIOU)。源代码将在https://github.com/wanglibo1995/geoseg上免费获得。
translated by 谷歌翻译
具有编码器解码器架构的全卷积网络(FCN)是语义分段的标准范例。编码器 - 解码器架构利用编码器来捕获多级特征映射,其被解码器结合到最终预测中。随着上下文对于精确分割至关重要,已经提出了以智能方式提取此类信息的巨大努力,包括采用扩张/不受欢迎的卷曲或插入注意模块。但是,这些努力都基于与Reset或其他底座的FCN架构,它不能完全利用理论概念的上下文。相比之下,我们提出了Swin变压器作为骨干,以提取上下文信息并设计密集连接的特征聚合模块(DCFAM)的新型解码器,以恢复分辨率并产生分割图。两个遥感语义分割数据集的实验结果证明了提出方案的有效性。
translated by 谷歌翻译
卷积神经网络(CNNS),例如时滞神经网络(TDNN),在学习扬声器嵌入方面已经示出了它们显着的能力。但是,它们同时在存储大小,处理和记忆中带来巨大的计算成本。发现符合特定约束的专业CNN需要努力的人类专家。与手工设计的方法相比,神经结构搜索(NAS)作为自动化手动架构设计过程的实用技术,并引起了对扬声器识别等口语处理任务的越来越兴趣。在本文中,我们提出了一种高效的架构搜索框架,该架构由基于TDNN的超网络和TDNN-NAS算法组成。该提出的超网络引入了从不同层的各种分辨率的不同范围的不同范围的时间卷积,并从不同层到TDNN。在其顶部,TDNN-NAS算法通过权重共享子网迅速搜索所需的TDNN架构,这令人惊讶地减少了处理具有各种资源要求的广大设备的计算。 VOXECEL数据集上的实验结果显示了所提出的效率,可以近似有关深度,内核和宽度的$ 10 ^ {13} $架构。考虑到不同的计算约束,它实现了2.20%的误差率(eer),具有204m的乘法累积操作(Mac),1.41%eer,具有571米Mac以及0.94%的eer,具有1.45g Mac。综合调查表明,训练有素的超空心概括了在培训期间未采样的子网,并在准确性和效率之间获得有利的权衡。
translated by 谷歌翻译
在像素级别的特定类别分配地理空间对象是遥感图像分析中的基本任务。随着传感器技术的快速发展,可以在多个空间分辨率(MSR)中捕获远程感测图像,信息内容显示在不同的尺度上。从这些MSR图像中提取信息表示增强特征表示和表征的巨大机会。但是,MSR图像遭受了两个关键问题:1)地理对象的比例变化和2)在粗略空间分辨率下丢失详细信息。为了弥合这些差距,在本文中,我们提出了一种用于MSR远程感知图像的语义细分的新型刻度感知神经网络(SANET)。 SANET部署了密集连接的特征网络(DCFFM)模块,以捕获高质量的多尺度上下文,使得刻度变化正确地处理,并且对于大型和小物体而增加分割质量。空间特征重新校准(SFRM)模块进一步结合到网络中以学习具有增强的空间关系的完整语义内容,其中删除了信息丢失的负面影响。 DCFFM和SFRM的组合允许SANET学习尺度感知功能表示,这胜过现有的多尺度特征表示。三个语义分割数据集的广泛实验证明了拟议的Sanet在跨分辨率细分中的有效性。
translated by 谷歌翻译
We aim to bridge the gap between our common-sense few-sample human learning and large-data machine learning. We derive a theory of human-like few-shot learning from von-Neuman-Landauer's principle. modelling human learning is difficult as how people learn varies from one to another. Under commonly accepted definitions, we prove that all human or animal few-shot learning, and major models including Free Energy Principle and Bayesian Program Learning that model such learning, approximate our theory, under Church-Turing thesis. We find that deep generative model like variational autoencoder (VAE) can be used to approximate our theory and perform significantly better than baseline models including deep neural networks, for image recognition, low resource language processing, and character recognition.
translated by 谷歌翻译
Interview has been regarded as one of the most crucial step for recruitment. To fully prepare for the interview with the recruiters, job seekers usually practice with mock interviews between each other. However, such a mock interview with peers is generally far away from the real interview experience: the mock interviewers are not guaranteed to be professional and are not likely to behave like a real interviewer. Due to the rapid growth of online recruitment in recent years, recruiters tend to have online interviews, which makes it possible to collect real interview data from real interviewers. In this paper, we propose a novel application named EZInterviewer, which aims to learn from the online interview data and provides mock interview services to the job seekers. The task is challenging in two ways: (1) the interview data are now available but still of low-resource; (2) to generate meaningful and relevant interview dialogs requires thorough understanding of both resumes and job descriptions. To address the low-resource challenge, EZInterviewer is trained on a very small set of interview dialogs. The key idea is to reduce the number of parameters that rely on interview dialogs by disentangling the knowledge selector and dialog generator so that most parameters can be trained with ungrounded dialogs as well as the resume data that are not low-resource. Evaluation results on a real-world job interview dialog dataset indicate that we achieve promising results to generate mock interviews. With the help of EZInterviewer, we hope to make mock interview practice become easier for job seekers.
translated by 谷歌翻译